CN111048111B - 检测音频的节奏点的方法、装置、设备及可读存储介质 - Google Patents

检测音频的节奏点的方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN111048111B
CN111048111B CN201911354005.3A CN201911354005A CN111048111B CN 111048111 B CN111048111 B CN 111048111B CN 201911354005 A CN201911354005 A CN 201911354005A CN 111048111 B CN111048111 B CN 111048111B
Authority
CN
China
Prior art keywords
audio
rhythm
training
frequency
rhythm point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911354005.3A
Other languages
English (en)
Other versions
CN111048111A (zh
Inventor
劳振锋
陈传艺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Kugou Computer Technology Co Ltd
Original Assignee
Guangzhou Kugou Computer Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Kugou Computer Technology Co Ltd filed Critical Guangzhou Kugou Computer Technology Co Ltd
Priority to CN201911354005.3A priority Critical patent/CN111048111B/zh
Publication of CN111048111A publication Critical patent/CN111048111A/zh
Application granted granted Critical
Publication of CN111048111B publication Critical patent/CN111048111B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/046Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for differentiation between music and non-music signals, based on the identification of musical parameters, e.g. based on tempo detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/071Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for rhythm pattern analysis or rhythm style recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/076Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of timing, tempo; Beat detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/311Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation

Abstract

本申请公开了一种检测音频的节奏点的方法、装置、设备及可读存储介质,属于音频处理技术领域。该方法包括:获取待检测音频;对所述待检测音频进行音轨分离,得到鼓声音频;基于所述鼓声音频和节奏点预测神经网络模型,确定所述待检测音频的多种类型的节奏点。采用本申请提供的方法,可以有效解决相关技术中检测音频的节奏点的准确率较低的技术问题。

Description

检测音频的节奏点的方法、装置、设备及可读存储介质
技术领域
本申请涉及音频处理技术领域,具体涉及一种检测音频的节奏点的方法、装置、设备及可读存储介质。
背景技术
架子鼓是一种常用的乐器,在大部分歌曲音频中都存在架子鼓发出的鼓声。在歌曲音频中某些出现鼓声的时间点可以称为鼓点(鼓点也可以称为节奏点)。根据歌曲音频在鼓点的鼓声的不同,鼓点可以分为低频鼓点、中频鼓点和高频鼓点,其中,歌曲音频在低频鼓点存在击打底鼓发出的声音,在中频鼓点存在击打军鼓或嗵鼓发出的声音,在高频鼓点存在击打镲发出的声音。低频鼓点、中频鼓点和高频鼓点还可以称为低频节奏点、中频节奏点和高频节奏点。在歌曲音频中提取出各种类型的节奏点之后,可以利用节奏点做一些有趣的应用,例如,在以歌曲音频为背景音乐的视频中,可以在歌曲音频的中频节奏点,进行视频场景的切换,以增强视频的节奏感。
相关技术中检测歌曲音频的节奏点时,通过检测歌曲音频在各个时间点的能量来确定歌曲音频的各个节奏点,例如,如果歌曲音频在某一时间点的能量满足中频能量特征,则确定该时间点为中频节奏点。
在通过相关技术中的方法确定歌曲音频的节奏点时,很容易受到歌曲音频中除鼓声之外的其余声音(如人声和其它乐器声)的干扰,这使得检测出的节奏点的准确率较低。
发明内容
本申请实施例提供了一种检测音频的节奏点的方法、装置、设备及计算机可读存储介质,可以解决相关技术中存在的技术问题。所述检测音频的节奏点的方法、装置、设备及计算机可读存储介质的技术方案如下:
第一方面,提供了一种检测音频的节奏点的方法,所述方法包括:
获取待检测音频;
对所述待检测音频进行音轨分离,得到鼓声音频;
基于所述鼓声音频和节奏点预测神经网络模型,确定所述待检测音频的多种类型的节奏点。
在一种可能的实现方式中,所述基于所述鼓声音频和节奏点预测神经网络模型,确定所述待检测音频的多种类型的节奏点,包括:
将所述鼓声音频输入到所述节奏点预测神经网络模型中,得到所述待检测音频的多种类型的节奏点。
在一种可能的实现方式中,所述基于所述鼓声音频和节奏点预测神经网络模型,确定所述待检测音频的多种类型的节奏点,包括:
将所述鼓声音频输入到所述节奏点预测神经网络模型中,得到所述待检测音频的多个节奏点;
基于所述鼓声音频在每个节奏点的能量,确定每个节奏点的类型。
在一种可能的实现方式中,所述基于所述鼓声音频在每个节奏点的能量,确定每个节奏点的类型,包括:
确定低频、中频和高频的频域范围;
检测所述鼓声音频在各个节奏点的低频能量、中频能量和高频能量;
对于每个节奏点,如果所述鼓声音频在所述节奏点的低频能量满足目标低频能量特征,则确定所述节奏点为低频节奏点,如果所述鼓声音频在所述节奏点的中频能量满足目标中频能量特征,则确定所述节奏点为中频节奏点,如果所述鼓声音频在所述节奏点的高频能量满足目标高频能量特征,则确定所述节奏点为高频节奏点。
在一种可能的实现方式中,所述方法还包括:
获取多个训练音频;
对每个训练音频进行音轨分离,得到多个训练鼓声音频;
在所述多个训练鼓声音频中标记出各个节奏点;
基于带标记的多个训练鼓声音频,对初始节奏点预测神经模型进行训练,得到所述节奏点预测神经模型。
第二方面,提供了一种检测音频的节奏点的装置,所述装置包括:
获取模块,用于获取待检测音频;
分离模块,用于对所述待检测音频进行音轨分离,得到鼓声音频;
确定模块,用于基于所述鼓声音频和节奏点预测神经网络模型,确定所述待检测音频的多种类型的节奏点。
在一种可能的实现方式中,所述确定模块,用于:
将所述鼓声音频输入到所述节奏点预测神经网络模型中,得到所述待检测音频的多种类型的节奏点。
在一种可能的实现方式中,所述确定模块,用于:
将所述鼓声音频输入到所述节奏点预测神经网络模型中,得到所述待检测音频的多个节奏点;
基于所述鼓声音频在每个节奏点的能量,确定每个节奏点的类型。
在一种可能的实现方式中,所述确定模块,用于
确定低频、中频和高频的频域范围;
检测所述鼓声音频在各个节奏点的低频能量、中频能量和高频能量;
对于每个节奏点,如果所述鼓声音频在所述节奏点的低频能量满足目标低频能量特征,则确定所述节奏点为低频节奏点,如果所述鼓声音频在所述节奏点的中频能量满足目标中频能量特征,则确定所述节奏点为中频节奏点,如果所述鼓声音频在所述节奏点的高频能量满足目标高频能量特征,则确定所述节奏点为高频节奏点。
在一种可能的实现方式中,所述装置还包括训练模块,用于:
获取多个训练音频;
对每个训练音频进行音轨分离,得到多个训练鼓声音频;
在所述多个训练鼓声音频中标记出各个节奏点;
基于带标记的多个训练鼓声音频,对初始节奏点预测神经模型进行训练,得到所述节奏点预测神经模型。
第三方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现如第一方面所述的检测音频的节奏点的方法。
第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如第一方面所述的检测音频的节奏点的方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
本申请实施例提供了一种检测音频的节奏点的方法,首先,获取待检测音频。然后,对待检测音频进行音轨分离,得到鼓声音频。最后,基于鼓声音频和节奏点预测神经网络模型,确定待检测音频的多种类型的节奏点。本申请实施例提供的检测音频的节奏点的方法,通过对待检测音频进行音轨分离得到鼓声音频,减小了待检测音频中其余声音的影响,提高了检测音频的节奏点的准确率。并且,通过基于鼓声音频和节奏点预测神经网络模型进行节奏点的确定,也提高了检测音频的节奏点的准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种检测音频的节奏点的方法的流程图;
图2是本申请实施例提供的一种检测音频的节奏点的装置的结构示意图;
图3是本申请实施例提供的一种终端的结构示意图;
图4是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请实施例提供了一种检测音频的节奏点的方法,该方法可以由终端或服务器实现。其中,该终端可以是是手机、平板电脑、笔记本等移动终端,也可以是台式计算机等固定终端。该服务器可以为单个服务器,也可以为服务器集群。
本申请实施例提供的方法可以用于检测音频中的节奏点,检测出的节奏点可以用于做一些有趣的应用。例如,在音频外放时,由于人们对音频的中频节奏点的感知较为明显,所以在歌曲播放过程中,可以使歌曲播放到中频节奏点时进行播放背景的切换,以提高歌曲播放时的节奏感。再例如,在以歌曲音频为背景音乐的视频中,可以在歌曲音频的节奏点,进行视频场景的切换,以增强视频的节奏感。再例如,在许多节奏游戏的制作中,也是需要用到歌曲音频的节奏点数据的。
如图1所示,该检测音频的节奏点的方法的处理流程可以包括如下步骤:
在步骤101中,获取待检测音频。
其中,待检测音频可以为歌声音频,也可以为纯音乐音频。
在实施中,技术人员可以将一个或多个待检测音频导入至计算机设备中,则计算机设备即可以获取待检测音频。
在步骤102中,对待检测音频进行音轨分离,得到鼓声音频。
在实施中,可以通过spleeter算法对待检测音频进行音轨分离,另外,除了得到鼓声音频之外,还可以分离出人声音频和琴声音频等。
在步骤103中,基于鼓声音频和节奏点预测神经网络模型,确定待检测音频的多种类型的节奏点。
其中,节奏点预测神经网络模型为预先训练好的神经网络模型,该神经网络模型可以为卷积神经网络(Convolutional Neural Networks,CNN)模型。卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络,是深度学习的代表算法之一。卷积神经网络具有表征学习能力,能够按其阶层结构对输入信息进行平移不变分类,因此也被称为“平移不变人工神经网络”。
节奏点的类型可以包括低频节奏点、中频节奏点和高频节奏点,低频节奏点也可以称为低频鼓点,中频节奏点也可以称为中频鼓点,高频节奏点也可以称为高频鼓点。待检测音频在低频节奏点存在底鼓发出的声音,在中频节奏点存在击打军鼓或嗵鼓发出的声音,在高频节奏点存在击打镲发出的声音。
在实施中,在得到鼓声音频之后,可以将鼓声音频输入到节奏点预测神经网络模型中,得到待检测音频的节奏点。其中,得到的节奏点可以包括类型标记,也可以不包括类型标记,具体根据节奏点预测神经网络模型的类型的不同而不同。并且,在得到的节奏点不包括类型标记时,还需要对得到的节奏点进行分类处理。具体过程可以分为以下两种情况:
在一种可能的实现方式中,将鼓声音频输入到节奏点预测神经网络模型中,得到待检测音频的多种类型的节奏点。
在实施中,将鼓声音频输入到节奏点预测神经网络模型之后,可以直接得到标记有所属类型的节奏点,则后续就不必进行节奏点的分类处理。
需要说明的是,第一种节奏点预测神经网络模型的训练过程可以如下所述,获取多个训练音频,对每个训练音频进行音轨分离,得到多个训练鼓声音频。在多个训练鼓声音频中标记出各个节奏点,基于带标记的多个训练鼓声音频,对初始节奏点预测神经模型进行训练,得到节奏点预测神经模型。
其中,训练鼓声音频为训练用的鼓声音频。在多个训练鼓声音频中标记出多个节奏点时,还标记出了各个节奏点的所属类型。训练音频可以为歌曲音频,也可以为纯音乐音频。
在实施中,首先,需要获取到大量的训练音频,然后,可以使用spleeter算法对每个训练音频进行音轨分离,得到训练鼓声音频、人声音频和琴声音频等。
之后,需要在分离出的训练鼓声音频中标记出不同类型的节奏点。标记时,可以进行人工标记,也可以使用算法标记,还可以是算法标记后人工对节奏点修正。使用算法标记节奏点时,可以先用madmom的oneset算法或者superflux算法提取出可能的节奏点,然后,可以根据底鼓、军鼓和嗵鼓、镲的频率特点,划分出低频、中频和高频的频域范围,例如,低频的频域范围为30Hz-150Hz,中频的频域范围为300Hz-2000Hz,高频的频域范围为5000Hz-15000Hz。最后,检测训练鼓声音频在各个节奏点的低频能量、中频能量和高频能量,判断各频率的能量是否满足目标频率能量特征。具体的,对于某一节奏点,如果训练鼓声音频在该节奏点的低频能量满足目标低频能量特征,则确定该节奏点为低频节奏点;如果训练鼓声音频在该节奏点的中频能量满足目标中频能量特征,则确定该节奏点为中频节奏点;如果训练鼓声音频在该节奏点的高频能量满足目标高频能量特征,则确定该节奏点为高频节奏点。从而,可以得出各个节奏点的类别,并标记出节奏点所属类别。
其中,某一节奏点满足低频能量特征是指训练鼓声音频在该节奏点的低频能量大于第一设定阈值,且在该节奏点的低频能量与前一个时间点的低频能量(或前几个时间点的低频能量的平均值或最大值)的差值大于第一差值阈值。
某一节奏点满足中频能量特征是指训练鼓声音频在该节奏点的中频能量大于第二设定阈值,且在该节奏点的中频能量与前一个时间点的中频能量(或前几个时间点的中频能量的平均值或最大值)的差值大于第二差值阈值。
某一节奏点满足高频能量特征是指训练鼓声音频在该节奏点的高频能量大于第三设定阈值,且在该节奏点的高频能量与前一个时间点的高频能量(或前几个时间点的高频能量的平均值或最大值)的差值大于第三差值阈值。
最后,在得到标记有不同类型的节奏点的训练鼓声音频之后,将带标记的训练鼓声音频输入至初始节奏点预测神经模型中进行模型训练,直至训练得到的节奏点预测神经模型的准确率满足要求。
在另一种可能的实现方式中,将鼓声音频输入到节奏点预测神经网络模型中,得到待检测音频的多个节奏点。基于鼓声音频在每个节奏点的能量,确定每个节奏点的类型。
在实施中,将鼓声音频输入到节奏点预测神经网络模型之后,可以得到多个节奏点,在该多个节奏点中未标记有所属类型,因此,还需要对多个节奏点进行分类处理,以得到各个节奏点的所属类型。例如,可以根据鼓声音频在每个节奏点的能量,确定每个节奏点的类型,具体过程可以如下所述:
首先,确定低频、中频和高频的频域范围。具体的,可以根据底鼓、军鼓和嗵鼓、镲的频率特点,划分出低频、中频和高频的频域范围,例如,低频的频域范围为30Hz-150Hz,中频的频域范围为300Hz-2000Hz,高频的频域范围为5000Hz-15000Hz,以便后续计算低频能量、中频能量和高频能量。
然后,检测鼓声音频在各个节奏点的低频能量、中频能量和高频能量。
最后,对于每个节奏点,如果鼓声音频在该节奏点的低频能量满足目标低频能量特征,则确定该节奏点为低频节奏点。如果鼓声音频在该节奏点的中频能量满足目标中频能量特征,则确定该节奏点为中频节奏点。如果鼓声音频在该节奏点的高频能量满足目标高频能量特征,则确定该节奏点为高频节奏点。
其中,某一节奏点满足低频能量特征是指鼓声音频在该节奏点的低频能量大于第一设定阈值,且在该节奏点的低频能量与前一个时间点的低频能量(或前几个时间点的低频能量的平均值或最大值)的差值大于第一差值阈值。
某一节奏点满足中频能量特征是指鼓声音频在该节奏点的中频能量大于第二设定阈值,且在该节奏点的中频能量与前一个时间点的中频能量(或前几个时间点的中频能量的平均值或最大值)的差值大于第二差值阈值。
某一节奏点满足高频能量特征是指鼓声音频在该节奏点的高频能量大于第三设定阈值,且在该节奏点的高频能量与前一个时间点的高频能量(或前几个时间点的高频能量的平均值或最大值)的差值大于第三差值阈值。
需要补充的是,第二种节奏点预测神经网络模型的训练过程可以如下所述,获取多个训练音频,对每个训练音频进行音轨分离,得到多个训练鼓声音频。在多个训练鼓声音频中标记出各个节奏点,基于带标记的多个训练鼓声音频,对初始节奏点预测神经模型进行训练,得到节奏点预测神经模型。
其中,在多个训练鼓声音频中仅仅标记出节奏点,但未标记出节奏点所属类型。训练音频可以为歌曲音频,也可以为纯音乐音频。
在实施中,首先,需要获取到大量的训练音频,然后,可以使用spleeter算法对每个训练音频进行音轨分离,得到训练鼓声音频、人声音频和琴声音频等。
之后,需要在分离出的训练鼓声音频中标记出所有的节奏点。标记时,可以进行人工标记,也可以使用算法标记,还可以是算法标记后人工修正。使用算法标记节奏点时,可以使用madmom的oneset算法或者superflux算法提取出所有可能的节奏点,然后进行标记。
最后,在得到标记有不同类型的节奏点的训练鼓声音频之后,将带标记的训练鼓声音频输入至初始节奏点预测神经模型中进行模型训练,直至训练得到的节奏点预测神经模型的准确率满足要求。
可见,上述两种节奏点预测神经网络的功能不同,第一种节奏点预测神经网络模型可以直接得到带类型标记的节奏点,而第二种节奏点预测神经网络模型可以得到不带类型标记的节奏点,所以之后还可以进行节奏点的分类处理。
相应的,在训练过程中,第一种节奏点预测神经网络模型需要标记有具体类型的节奏点的训练鼓声音频作为训练样本,而第二种节奏点预测神经网络模型仅仅需要标记有节奏点的训练鼓声音频作为训练样本,而无需标记节奏点的具体类型。
本申请实施例提供了一种检测音频的节奏点的方法,首先,获取待检测音频。然后,对待检测音频进行音轨分离,得到鼓声音频。最后,基于鼓声音频和节奏点预测神经网络模型,确定待检测音频的多种类型的节奏点。本申请实施例提供的检测音频的节奏点的方法,通过对待检测音频进行音轨分离得到鼓声音频,减小了待检测音频中其余声音的影响,提高了检测音频的节奏点的准确率。并且,通过基于鼓声音频和节奏点预测神经网络模型进行节奏点的确定,也提高了检测音频的节奏点的准确率。
基于相同的技术构思,本申请实施例还提供了一种检测音频的节奏点的装置,该装置可以为终端或服务器,如图2所示,该装置包括:
获取模块201,用于获取待检测音频;
分离模块202,用于对待检测音频进行音轨分离,得到鼓声音频;
确定模块203,用于基于鼓声音频和节奏点预测神经网络模型,确定待检测音频的多种类型的节奏点。
在一种可能的实现方式中,确定模块203,用于:
将鼓声音频输入到节奏点预测神经网络模型中,得到待检测音频的多种类型的节奏点。
在一种可能的实现方式中,确定模块203,用于:
将鼓声音频输入到节奏点预测神经网络模型中,得到待检测音频的多个节奏点;
基于鼓声音频在每个节奏点的能量,确定每个节奏点的类型。
在一种可能的实现方式中,确定模块203,用于
确定低频、中频和高频的频域范围;
检测鼓声音频在各个节奏点的低频能量、中频能量和高频能量;
对于每个节奏点,如果鼓声音频在节奏点的低频能量满足目标低频能量特征,则确定节奏点为低频节奏点,如果鼓声音频在节奏点的中频能量满足目标中频能量特征,则确定节奏点为中频节奏点,如果鼓声音频在节奏点的高频能量满足目标高频能量特征,则确定节奏点为高频节奏点。
在一种可能的实现方式中,该装置还包括训练模块,用于:
获取多个训练音频;
对每个训练音频进行音轨分离,得到多个训练鼓声音频;
在多个训练鼓声音频中标记出各个节奏点;
基于带标记的多个训练鼓声音频,对初始节奏点预测神经模型进行训练,得到节奏点预测神经模型。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
需要说明的是:上述实施例提供的检测音频的节奏点的装置在进行音频的节奏点的检测时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的检测音频的节奏点的装置与检测音频的节奏点的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图3是本申请实施例提供的一种终端的结构框图。该终端300可以是便携式移动终端,比如:智能手机、平板电脑、智能摄像机。终端300还可能被称为用户设备、便携式终端等其他名称。
通常,终端300包括有:处理器301和存储器302。
处理器301可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器301可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器301也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器301可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器301还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器302可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是有形的和非暂态的。存储器302还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器302中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器301所执行以实现本申请中提供的检测音频的节奏点的方法。
在一些实施例中,终端300还可选包括有:外围设备接口303和至少一个外围设备。具体地,外围设备包括:射频电路304、显示屏305、摄像头组件306、音频电路307、定位组件308和电源309中的至少一种。
外围设备接口303可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器301和存储器302。在一些实施例中,处理器301、存储器302和外围设备接口303被集成在同一芯片或电路板上;在一些其他实施例中,处理器301、存储器302和外围设备接口303中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路304用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路304通过电磁信号与通信网络以及其他通信设备进行通信。射频电路304将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路304包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路304可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路304还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏305用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。显示屏305还具有采集在触摸显示屏305的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器301进行处理。显示屏305用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏305可以为一个,设置终端300的前面板;在另一些实施例中,显示屏305可以为至少两个,分别设置在终端300的不同表面或呈折叠设计;在再一些实施例中,显示屏305可以是柔性显示屏,设置在终端300的弯曲表面上或折叠面上。甚至,显示屏305还可以设置成非矩形的不规则图形,也即异形屏。显示屏305可以采用LCD(Liquid Crystal Display,液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件306用于采集图像或视频。可选地,摄像头组件306包括前置摄像头和后置摄像头。通常,前置摄像头用于实现视频通话或自拍,后置摄像头用于实现照片或视频的拍摄。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能,主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能。在一些实施例中,摄像头组件306还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路307用于提供用户和终端300之间的音频接口。音频电路307可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器301进行处理,或者输入至射频电路304以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端300的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器301或射频电路304的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路307还可以包括耳机插孔。
定位组件308用于定位终端300的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件308可以是基于美国的GPS(GlobalPositioning System,全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。
电源309用于为终端300中的各个组件进行供电。电源309可以是交流电、直流电、一次性电池或可充电电池。当电源309包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端300还包括有一个或多个传感器310。该一个或多个传感器310包括但不限于:加速度传感器311、陀螺仪传感器312、压力传感器313、指纹传感器314、光学传感器315以及接近传感器316。
加速度传感器311可以检测以终端300建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器311可以用于检测重力加速度在三个坐标轴上的分量。处理器301可以根据加速度传感器311采集的重力加速度信号,控制显示屏305以横向视图或纵向视图进行用户界面的显示。加速度传感器311还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器312可以检测终端300的机体方向及转动角度,陀螺仪传感器312可以与加速度传感器311协同采集用户对终端300的3D动作。处理器301根据陀螺仪传感器312采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器313可以设置在终端300的侧边框和/或显示屏305的下层。当压力传感器313设置在终端300的侧边框时,可以检测用户对终端300的握持信号,根据该握持信号进行左右手识别或快捷操作。当压力传感器313设置在显示屏305的下层时,可以根据用户对显示屏305的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器314用于采集用户的指纹,以根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器301授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器314可以被设置终端300的正面、背面或侧面。当终端300上设置有物理按键或厂商Logo时,指纹传感器314可以与物理按键或厂商Logo集成在一起。
光学传感器315用于采集环境光强度。在一个实施例中,处理器301可以根据光学传感器315采集的环境光强度,控制显示屏305的显示亮度。具体地,当环境光强度较高时,调高显示屏305的显示亮度;当环境光强度较低时,调低显示屏305的显示亮度。在另一个实施例中,处理器301还可以根据光学传感器315采集的环境光强度,动态调整摄像头组件306的拍摄参数。
接近传感器316,也称距离传感器,通常设置在终端300的正面。接近传感器316用于采集用户与终端300的正面之间的距离。在一个实施例中,当接近传感器316检测到用户与终端300的正面之间的距离逐渐变小时,由处理器301控制显示屏305从亮屏状态切换为息屏状态;当接近传感器316检测到用户与终端300的正面之间的距离逐渐变大时,由处理器301控制显示屏305从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图3中示出的结构并不构成对终端300的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
图4是本申请实施例提供的一种服务器的结构示意图,该服务器400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processingunits,CPU)401和一个或一个以上的存储器402,其中,存储器402中存储有至少一条指令,该至少一条指令由处理器401加载并执行以实现上述检测音频的节奏点的方法。
在示例性实施例中,还提供了一种计算机可读存储介质,计算机可读存储介质中存储有至少一条指令,至少一条指令由处理器加载并执行以实现上述实施例中的检测音频的节奏点的方法。例如,所述计算机可读存储介质可以是ROM(Read-Only Memory)、随机存取存储器(Random Access Memory,RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (4)

1.一种检测音频的节奏点的方法,其特征在于,所述方法包括:
获取待检测音频;
对所述待检测音频进行音轨分离,得到鼓声音频;
将所述鼓声音频输入到节奏点预测神经网络模型中,得到所述待检测音频的多种类型的节奏点,节奏点的类型为基于频率划分得到;
所述方法还包括:
获取多个训练音频;
对每个训练音频进行音轨分离,得到多个训练鼓声音频;
在所述多个训练鼓声音频中标记出各个节奏点及各个节奏点的所属类型;
基于带标记的多个训练鼓声音频,对初始节奏点预测神经模型进行训练,得到所述节奏点预测神经网络模型。
2.一种检测音频的节奏点的装置,其特征在于,所述装置包括:
获取模块,用于获取待检测音频;
分离模块,用于对所述待检测音频进行音轨分离,得到鼓声音频;
确定模块,用于将所述鼓声音频输入到节奏点预测神经网络模型中,得到所述待检测音频的多种类型的节奏点,节奏点的类型为基于频率划分得到;
训练模块,用于:
获取多个训练音频;
对每个训练音频进行音轨分离,得到多个训练鼓声音频;
在所述多个训练鼓声音频中标记出各个节奏点及各个节奏点的所属类型;
基于带标记的多个训练鼓声音频,对初始节奏点预测神经模型进行训练,得到所述节奏点预测神经网络模型。
3.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现如权利要求1所述的检测音频的节奏点的方法。
4.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如权利要求1所述的检测音频的节奏点的方法。
CN201911354005.3A 2019-12-25 2019-12-25 检测音频的节奏点的方法、装置、设备及可读存储介质 Active CN111048111B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911354005.3A CN111048111B (zh) 2019-12-25 2019-12-25 检测音频的节奏点的方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911354005.3A CN111048111B (zh) 2019-12-25 2019-12-25 检测音频的节奏点的方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN111048111A CN111048111A (zh) 2020-04-21
CN111048111B true CN111048111B (zh) 2023-07-04

Family

ID=70239380

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911354005.3A Active CN111048111B (zh) 2019-12-25 2019-12-25 检测音频的节奏点的方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN111048111B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112289344A (zh) * 2020-10-30 2021-01-29 腾讯音乐娱乐科技(深圳)有限公司 鼓点波形确定方法、装置及计算机存储介质
CN112399247B (zh) * 2020-11-18 2023-04-18 腾讯音乐娱乐科技(深圳)有限公司 一种音频处理方法、音频处理设备及可读存储介质
CN112489676A (zh) * 2020-12-15 2021-03-12 腾讯音乐娱乐科技(深圳)有限公司 模型训练方法、装置、设备及存储介质
CN112866732B (zh) * 2020-12-30 2023-04-25 广州方硅信息技术有限公司 音乐广播方法及其装置、设备与介质
CN113053339B (zh) * 2021-03-10 2024-04-02 百果园技术(新加坡)有限公司 节奏调整方法、装置、设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1774514A2 (en) * 2004-06-22 2007-04-18 Florida Atlantic University Method and apparatus for nonlinear frequency analysis of structured signals
CN110534078A (zh) * 2019-07-30 2019-12-03 黑盒子科技(北京)有限公司 一种基于音频特征的细粒度音乐节奏提取系统及方法
DE102019004239A1 (de) * 2018-06-22 2019-12-24 Semiconductor Components Industries Llc Musikklassifizierer und verwandte verfahren

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108320730B (zh) * 2018-01-09 2020-09-29 广州市百果园信息技术有限公司 音乐分类方法及节拍点检测方法、存储设备及计算机设备
CN108202334B (zh) * 2018-03-22 2020-10-23 东华大学 一种能够识别音乐节拍和风格的舞蹈机器人
CN108926341A (zh) * 2018-04-20 2018-12-04 平安科技(深圳)有限公司 Ecg信号的检测方法、装置、计算机设备和存储介质
CN109308910B (zh) * 2018-09-20 2022-03-22 广州酷狗计算机科技有限公司 确定音频的bpm的方法和装置
CN109712600B (zh) * 2018-12-30 2021-04-20 北京经纬恒润科技股份有限公司 一种节拍识别的方法及装置
CN110335622B (zh) * 2019-06-13 2024-03-01 平安科技(深圳)有限公司 音频单音色分离方法、装置、计算机设备及存储介质
CN110853677B (zh) * 2019-11-20 2022-04-26 北京雷石天地电子技术有限公司 歌曲的鼓声节拍识别方法、装置、终端和非临时性计算机可读存储介质
CN111105769B (zh) * 2019-12-26 2023-01-10 广州酷狗计算机科技有限公司 检测音频的中频节奏点的方法、装置、设备和存储介质
CN111508526B (zh) * 2020-04-10 2022-07-01 腾讯音乐娱乐科技(深圳)有限公司 一种音频节拍信息的检测方法、装置及存储介质
CN112259123A (zh) * 2020-10-16 2021-01-22 腾讯音乐娱乐科技(深圳)有限公司 一种鼓点检测方法、装置及电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1774514A2 (en) * 2004-06-22 2007-04-18 Florida Atlantic University Method and apparatus for nonlinear frequency analysis of structured signals
DE102019004239A1 (de) * 2018-06-22 2019-12-24 Semiconductor Components Industries Llc Musikklassifizierer und verwandte verfahren
CN110634508A (zh) * 2018-06-22 2019-12-31 半导体组件工业公司 音乐分类器、相关方法以及助听器
CN110534078A (zh) * 2019-07-30 2019-12-03 黑盒子科技(北京)有限公司 一种基于音频特征的细粒度音乐节奏提取系统及方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Gkiokas A,等.Convolutional Neural Networks for Real-Time Beat Tracking: A Dancing Robot Application.《ISMIR》.2017,全文. *
Large E W,等.Neural Networks for Beat Perception in Musical Rhythm.《 Frontiers in systems neuroscience》.2015,全文. *
谭海涛.音频节奏的分析与应用.《中国优秀硕士学位论文全文数据库》.2012,全文. *
骆成喜,等.基于深度循环神经网络的音乐节拍识别.《2017中国自动化大会(CAC2017)暨国际智能制造创新大会(CIMIC2017)论文集》.2017,全文. *

Also Published As

Publication number Publication date
CN111048111A (zh) 2020-04-21

Similar Documents

Publication Publication Date Title
CN111048111B (zh) 检测音频的节奏点的方法、装置、设备及可读存储介质
CN108008930B (zh) 确定k歌分值的方法和装置
CN108320756B (zh) 一种检测音频是否是纯音乐音频的方法和装置
CN110688082B (zh) 确定音量的调节比例信息的方法、装置、设备及存储介质
CN111105769B (zh) 检测音频的中频节奏点的方法、装置、设备和存储介质
CN109448761B (zh) 播放歌曲的方法和装置
CN111445901B (zh) 音频数据获取方法、装置、电子设备及存储介质
CN110956971B (zh) 音频处理方法、装置、终端及存储介质
CN109192218B (zh) 音频处理的方法和装置
WO2022111168A1 (zh) 视频的分类方法和装置
CN109547843B (zh) 对音视频进行处理的方法和装置
CN109065068B (zh) 音频处理方法、装置及存储介质
CN111128232A (zh) 音乐的小节信息确定方法、装置、存储介质及设备
CN114945892A (zh) 播放音频的方法、装置、系统、设备及存储介质
CN111613213B (zh) 音频分类的方法、装置、设备以及存储介质
CN111092991B (zh) 歌词显示方法及装置、计算机存储介质
CN109961802B (zh) 音质比较方法、装置、电子设备及存储介质
CN111081277A (zh) 音频测评的方法、装置、设备及存储介质
CN112086102B (zh) 扩展音频频带的方法、装置、设备以及存储介质
CN110136752B (zh) 音频处理的方法、装置、终端及计算机可读存储介质
CN112118482A (zh) 音频文件的播放方法、装置、终端及存储介质
CN110152309B (zh) 语音通信方法、装置、电子设备及存储介质
CN109036463B (zh) 获取歌曲的难度信息的方法、装置及存储介质
CN109003627B (zh) 确定音频得分的方法、装置、终端及存储介质
CN111063372B (zh) 确定音高特征的方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant